🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования
В тех случаях, когда в датасете присутствуют разные подгруппы с различными распределениями.
🔍Пример: Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).
В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.
✅Что делать: 📍Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.). 📍Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы. 📍При необходимости объединить результаты анализа или прогнозы обратно.
✅Что важно учитывать: 📍Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации. 📍Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.
✅Вывод: Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.
🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования
В тех случаях, когда в датасете присутствуют разные подгруппы с различными распределениями.
🔍Пример: Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).
В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.
✅Что делать: 📍Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.). 📍Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы. 📍При необходимости объединить результаты анализа или прогнозы обратно.
✅Что важно учитывать: 📍Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации. 📍Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.
✅Вывод: Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.
A leaked Telegram discussion by 50 so-called crypto influencers has exposed the extraordinary steps they take in order to profit on the back off unsuspecting defi investors. According to a leaked screenshot of the chat, an elaborate plan to defraud defi investors using the worthless “$Few” tokens had been hatched. $Few tokens would be airdropped to some of the influencers who in turn promoted these to unsuspecting followers on Twitter.
Telegram has exploded as a hub for cybercriminals looking to buy, sell and share stolen data and hacking tools, new research shows, as the messaging app emerges as an alternative to the dark web.An investigation by cyber intelligence group Cyberint, together with the Financial Times, found a ballooning network of hackers sharing data leaks on the popular messaging platform, sometimes in channels with tens of thousands of subscribers, lured by its ease of use and light-touch moderation.Библиотека собеса по Data Science | вопросы с собеседований from ru